MEGABLAST

 
     

  На главную страницу третьего семестра

При выполнении данной задачи использовались следующие команды:
1.) grep "codon.*serine" ecoli.embl > grep_ecoli.txt
При этом программа находит в файле ecoli.embl упоминания о серине (в данном случае сериновую тРНК)
2.) seqret -sask ecoli.embl
(в качестве параментров указывались координаты и имя выходного файла). В результате выполнения команд получен файл с последовательностью тРНК.

1. Определить, какая тРНК была использована рибосомой при присоединении 4-ого аминокислотного остатка к растущей цепи Вашего белка

Таблица 1. Выбор т-РНК

 Аминокислотный остаток в 4-ой позиции белка CUER_ECOLI S
  Соответствующий кодон в гене AF318185 5'-AGC-3'
  Идеальный антикодон 5'-GCU-3'
  Сколько можно было бы ожидать разных тРНК для остатка X, если опираться на генетический код? 6
  Сколько разных тРНК для остатка Ser аннотировано в геноме кишечной палочки? 4
  Характеристика выбранной для дальнейшего изучения тРНК:
      имя гена serU
      локализация гена в геноме complement(2041492..2041581)
locus_tag="b1975"
      распознаваемый кодон UCG
      антикодон CGA

Результат поиска всех сериновых тРНК у Escherichia coli: K-12

 FT                   /note="codons recognized: UCY; anticodon: GGA serine tRNA5;
FT                   /note="codons recognized: UCD; anticodon: UGA serine tRNA1;
FT                   /note="codons recognized: UCY; anticodon: GGA serine tRNA5;
FT                   /note="codon recognized: UCG; anticodon: CGA serine tRNA2;
FT                   /note="codons recognized: AGY; anticodon: GCU serine tRNA3;

2. Поиск гомологичных тРНК в родственном геноме

Задача — найти в геноме Bacillus subtilis последовательность, наиболее похожую на последовательность сериновой тРНК из E.coli. Поиск проведен с помощью 4-х разных программ для быстрого поиска сходных нуклеотидных последовательностей.

Таблица 2. Поиск гомологичной т-РНК

Программа FASTA BLASTN MegaBLAST discontiguous MegaBLAST
Длина якоря 6 11 28 11 или 12 нуклеотидов
Результаты поиска        
Число находок с E-value < 0,01 1 0 - 0
Характеристика лучшей находки:
      E-value 2.2e-13 0.064 - 0.064
      длина выравнивания 180 16 - 28
      вес выравнивания 63.0 32 - 32
      координаты в геноме 22260..22420 250982..250997 - 22307..22334
Аннотация лучшей находки по записи EMBL:
      имя гена trnSL-Ser1 - - -
      это тРНК? да - - -
      это тоже сериновая тРНК? да - - -

Примечание*. Хиты были найдены в документе EMBL с AC AL009126_GR. Программой blastn было сделано несколько находок, но e-value лучшей равняется 0.064. Это недостаточное сходство, для того, чтобы считать находку гомологичной. Да и по длине фрагмента понятно, что это не тРНК.
E-value лучшей находки discontiguous MegaBLAST составил 0.064. Выводы аналогичные выводам по результатам работы blastn.

Все вышеуказанные программы требуют для работы использования якоря - небольшой нуклеотидной последовательности, которая является начальной точкой выравнивания (начало поиска гомолога). Соответсвенно, чем длиннее якорь, тем сложнее найти подходящую гомологичную последовательность. В результате поиск c помощью MEGABLAST не дал результатов вследствие слишком длинного якоря.
Возможно, также именно по причине длины якоря результат поиска с помощью FASTA оказался самым результативным с точки зрения близости найденной гомологичной последовательности. E-value этой находки наименьший. Якорь в FASTA наименьший.
Координаты в геноме получились разные. Причем, координаты находки при поиске с помощью discontiguous MegaBLAST оказались включены в координаты при поиске FASTA. Возможно, это происходит из-за того, что эти программы выбирают разные старт- и стопкодоны.
E-value находки в программах BLAST и discontiguous MegaBLAST оказались одинаковые, а сами находки явно неосмысленны. Возможно, это результат того, что алгоритмы этих программ более схожи между собой, чем каждый из них с алгоритмом FASTA.

Команды, использованные при выполнении данного упражнения:

1) formatdb -i bs_genome.fasta -n bs -p F
Результат: три индексных файла (bs.nhr, bs.nsq, bs.nin) генома сенной палочки (Bacillus subtilis).
2) blastall -p blastn -d bs -i serine_tRNA.fasta -o blastn_results.txt
Результат: файл с одной находкой.
3) fasta34 serine_tRNA.fasta bs_genome.fasta 6
Длина якоря была (6) и входные файлы были указаны в командной строке. Результат: файл с 1 находкой.
4) megablast -d bs -i serine_tRNA.fasta -D 2 -o mega_result.txt
Результат: файл, с сообщением о том, что гомологов не найдено.
5) megablast -d bs -i serine_tRNA.fasta -D 2 -N 1 -W 11 -t 21 -o dmega_resul.txt
Результат: файл с одной находкой. Параметр -t (длина паттерна) может принимать значения 16, 18 или 21, было выбрано значение 21, чтобы уменьшить число случайных находок (паттерн длиннее - меньше находок будут подходить). Значение параметра -W равно 11 (число значащих позиций в паттерне).


© Лозиер Екатерина